我们研究了一个顺序决策问题,其中学习者面临$ k $武装的随机匪徒任务的顺序。对手可能会设计任务,但是对手受到限制,以在$ m $ and的较小(但未知)子集中选择每个任务的最佳组。任务边界可能是已知的(强盗元学习设置)或未知(非平稳的强盗设置)。我们设计了一种基于Burnit subsodular最大化的减少的算法,并表明,在大量任务和少数最佳武器的制度中,它在两种情况下的遗憾都比$ \ tilde {o}的简单基线要小。 \ sqrt {knt})$可以通过使用为非平稳匪徒问题设计的标准算法获得。对于固定任务长度$ \ tau $的强盗元学习问题,我们证明该算法的遗憾被限制为$ \ tilde {o}(nm \ sqrt {m \ tau}+n^{2/3} m \ tau)$。在每个任务中最佳武器的可识别性的其他假设下,我们显示了一个带有改进的$ \ tilde {o}(n \ sqrt {m \ tau}+n^{1/2} {1/2} \ sqrt的强盗元学习算法{m k \ tau})$遗憾。
translated by 谷歌翻译
我们研究了随机线性匪徒(LB)中的两个模型选择设置。在我们将其称为特征选择的第一个设置中,LB问题的预期奖励是$ M $特征映射(模型)中至少一个的线性跨度。在第二个设置中,LB问题的奖励参数由$ \ MATHBB r ^ d $中表示(可能)重叠球的$ M $模型任意选择。但是,该代理只能访问错过模型,即球的中心和半径的估计。我们将此设置称为参数选择。对于每个设置,我们开发和分析一种基于从匪徒减少到全信息问题的算法。这允许我们获得遗憾的界限(最多超过$ \ sqrt {\ log m} $ factor)而不是已知真实模型的情况。我们参数选择算法的遗憾也以模型不确定性对数进行缩放。最后,我们经验展现了使用合成和现实世界实验的算法的有效性。
translated by 谷歌翻译
We study bandit model selection in stochastic environments. Our approach relies on a meta-algorithm that selects between candidate base algorithms. We develop a meta-algorithm-base algorithm abstraction that can work with general classes of base algorithms and different type of adversarial meta-algorithms. Our methods rely on a novel and generic smoothing transformation for bandit algorithms that permits us to obtain optimal $O(\sqrt{T})$ model selection guarantees for stochastic contextual bandit problems as long as the optimal base algorithm satisfies a high probability regret guarantee. We show through a lower bound that even when one of the base algorithms has $O(\log T)$ regret, in general it is impossible to get better than $\Omega(\sqrt{T})$ regret in model selection, even asymptotically. Using our techniques, we address model selection in a variety of problems such as misspecified linear contextual bandits, linear bandit with unknown dimension and reinforcement learning with unknown feature maps. Our algorithm requires the knowledge of the optimal base regret to adjust the meta-algorithm learning rate. We show that without such prior knowledge any meta-algorithm can suffer a regret larger than the optimal base regret.
translated by 谷歌翻译
持续学习 - 从一系列学习经验中积累知识 - 是一个重要但充满挑战的问题。在此范式中,由于看到其他数据,该模型的先前遇到实例的性能可能会大大下降。在处理类不平衡数据时,忘记进一步加剧了。先前的工作提出了基于重播的方法,旨在通过智能存储未来重播的实例来减少遗忘。尽管类平衡储层抽样(CBRS)在处理不平衡数据方面已经成功,但尚未考虑类内的多样性,隐含地假设类的每个实例都同样有用。我们提出了不同的cbrs(D-CBRS),这是一种算法,使我们可以在存储内存中的实例时在类多样性中考虑。我们的结果表明,D-CBR的表现优于最先进的存储器管理在具有相当大的内部多样性的数据集上的持续学习算法。
translated by 谷歌翻译
While video action recognition has been an active area of research for several years, zero-shot action recognition has only recently started gaining traction. In this work, we propose a novel end-to-end trained transformer model which is capable of capturing long range spatiotemporal dependencies efficiently, contrary to existing approaches which use 3D-CNNs. Moreover, to address a common ambiguity in the existing works about classes that can be considered as previously unseen, we propose a new experimentation setup that satisfies the zero-shot learning premise for action recognition by avoiding overlap between the training and testing classes. The proposed approach significantly outperforms the state of the arts in zero-shot action recognition in terms of the the top-1 accuracy on UCF-101, HMDB-51 and ActivityNet datasets. The code and proposed experimentation setup are available in GitHub: https://github.com/Secure-and-Intelligent-Systems-Lab/SemanticVideoTransformer
translated by 谷歌翻译
由于长距离,照明变化,有限的用户合作和移动科目,虹膜分割和定位在不受约束环境中具有挑战性。为了解决这个问题,我们介绍了一个U-Net,具有预先培训的MobileNetv2深神经网络方法。我们使用MobileNetv2的预先训练的权重,用于想象成数据集,并在虹膜识别和本地化域上进行微调。此外,我们推出了一个名为Kartalol的新数据集,以更好地评估虹膜识别方案中的检测器。为了提供域适应,我们可以在Casia-Iris-Asia,Casia-Iris-M1和Casia-Iris-Africa和Casia-Iris-Africa和我们的数据集中微调MobileNetv2模型。我们还通过执行左右翻转,旋转,缩放和亮度来增强数据。我们通过迭代所提供的数据集中的图像来选择二进制掩码的二值化阈值。沿着Kartalol DataSet,Casia-Iris-Asia,Casia-Iris-M1,Casia-Iris-M1,Casia-Iris-M1,Casia-Iris-M1,Casia-Iris-M1,Casia-Iris-M1培训。实验结果强调了我们的方法在基于移动的基准上超越了最先进的方法。代码和评估结果在https://github.com/jalilnkh/kartalol-nir -isl2021031301上公开可用。
translated by 谷歌翻译
用于下游重建和生成的分类潜空间信息的利用是一种有趣和相对未开发的区域。一般而言,歧视性表现在类特定的特征中,但重建太稀疏,而在AutoEncoders中,表示致密,但具有有限的无法区分的类特征,使它们不太适合分类。在这项工作中,我们提出了一种歧视的建模框架,该框架采用被操纵的监督潜在表示来重建和生成属于给定班级的新样本。与旨在模拟数据歧管分布的GAN和VAE的生成建模方法不同,基于代理(Regene)(Regene)直接表示分类空间中的给定数据歧管。在某些限制下,这种监督表示允许使用适当的解码器进行重建和受控几代,而无需执行任何先前分布。理论上,给定类,我们表明使用凸组合巧妙地操纵这些表示保留相同的类标签。此外,他们还导致了新颖的直接现实图像。关于不同分辨率的数据集的广泛实验表明,Regene在FID方面具有比现有的条件生成模型更高的分类精度。
translated by 谷歌翻译